Ученые из московской AI-компании Smart Engines представили две научные работы на ведущей международной научной конференции в области анализа и распознавания документов ICDAR-2023, которая проходила 21-26 августа в США.
International Conference on Document Analysis and Recognition (ICDAR) – это главное международное мероприятие для ученых и практиков, занимающихся анализом и распознаванием документов. Конференция проводится уже 17-й раз. Команда Smart Engines регулярно выступает здесь, рассказывая про свои новые разработки. В этом году ученые компании выступили на конференции с двумя докладами.
Один из них был посвящен созданному датасету документов с голографической защитой MIDV-Holo для обучения ИИ борьбе с подделками. Во втором докладе был представлен фирменный нейросетевой детектор машиночитаемой зоны (MRZ) для распознавания документов на мобильных устройствах.
Подводя итоги выступления компании на конференции ICDAR-2023, генеральный директор Smart Engines кандидат технических наук Владимир Арлазаров отметил: “Сегодня я хочу поздравить всех с Днем знаний и сказать, что успехи в науке невозможны без стремления к знаниям и учебы, которая начинается за школьной партой. Мы гордимся тем, что вчерашние студенты, аспиранты и стажеры, которые пришли к нам в коллектив, успешно представляют результаты своих исследований на ведущих научных площадках мира.”
С докладом про MIDV-Holo на ICDAR выступил старший научный сотрудник-программист Smart Engines Константин Булатов. Он пришел в коллектив стажером-студентом старшего курса НИТУ МИСиС в 2012 году. Сейчас Константин один из акционеров Smart Engines, член совета директоров компании, руководитель разработки. В 2019 году он защитил диссертацию на соискание степени кандидата технических наук.
MIDV-Holo – это первый публичный датасет, который содержит данные удостоверяющих личность документов с элементами голографической защиты. Публикация датасетов настоящих документов попросту невозможна из-за условий конфиденциальности. С помощью MIDV-Holo разработчики со всего мира могут обучать свои ИИ алгоритмы лучше бороться с атаками на предъявление (presentation attack) и атаками ретрансляции (rebroadcast attack), которые совершают мошенники, когда фотошопят паспорта. Технология детекции голограмм востребована в банках и в цифровых каналах при оказании любых услуг, которые требуют предъявления паспорта.
Вторая работа, представленная на ICDAR в этом году, была посвящена быстрой детекции машиночитаемой зоны (MRZ) для распознавания документов на мобильных устройствах. С докладом выступил один из авторов статьи – Александр Гайер, руководитель группы нейросетевого поиска объектов на изображениях Smart Engines. Он пришел в компанию на позицию стажера в 2016 году, когда был еще студентом 4-го курса бакалавриата НИТУ МИСиС. Его первой задачей была доработка инструментария для разметки данных. С 2017 года он работает в отделе машинного обучения, где занимается разработкой системы обучения нейронных сетей, и их обучением. Александр стал руководителем группы в 26 лет.
В основе представленного исследователями алгоритма детекции лежит YOLO-подобный нейросетевой детектор, который находит MRZ всего за 16 миллисекунд на iPhone SE 2020. Это 62 кадра в секунду на мобильном процессоре 2019 года выпуска. Новый детектор хорошо работает в реальных условиях, когда документы имеют различные дефекты: проективные искажения, размытия и блики. Описанная в статье технология уже применяется для распознавания MRZ в системе Smart ID Engine, которая позволяет вводить паспортные данные в 20 раз быстрее и в 2 раза точнее квалифицированного оператора.
За семь лет существования Smart Engines ученые компании опубликовали более 300 научных статей в ведущих журналах первых квартилей Web of Science и Scopus, а также в журналах, индексируемых в RSCI. Научные работы Smart Engines анонсируются на крупнейших конференциях отрасли, а ученые патентуют свои технологии в США. У Smart Engines 9 российских и 5 американских патентов, а программные продукты компании активно используются в России и по всему миру.
О компании
Компания Smart Engines основана в 2016 году учеными с 25-летним опытом работы в сфере распознавания символов, изображений и обработки документов. В линейку программных продуктов Smart Engines входят системы Smart ID Engine (распознавание паспорта и других удостоверяющих документов), Smart Code Engine (распознавание банковских карт, номера банковской карты, номера телефона продавца, QR-кодов и других баркодов), Smart Document Engine (распознавание корпоративных документов и форм). Smart Engines также разработала программный продукт для создания томографических реконструкций Smart Tomo Engine. Все программы Smart Engines являются полностью отечественными разработками и внесены в реестр российских программ.
Программы Smart ID Engine, Smart Code Engine и Smart Document Engine применяют десять из тринадцати системно значимых кредитных организаций России – Альфа-Банк, ВТБ, Газпромбанк, МКБ, банк “Открытие”, Промсвязьбанк, Райффайзенбанк, Росбанк, Совкомбанк и Тинькофф – для онбординга, открытия счетов, оформления банковских продуктов, услуг и платежей. Решения Smart Engines используются при продаже билетов в кассах РЖД, на автоматическом паспортном контроле в Шереметьево, при регистрации самозанятых в приложении ФНС “Мой налог”, в других организациях и проектах.